Dữ liệu thực nghiệm 46 

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu hệ thống khuyến nghị người dùng dựa vào lọc công tác 04 (Trang 48 - 51)

3.1.1. Tập dữ liệu thực nghiệm.

Để  thực  nghiệm  tôi  sử  dụng  một  trong  các  bộ  dữ  liệu  được  đăng  tải  trên  trang  Movielens  của  nhóm  nghiêm cứu  GroupLens.  GroupLens  là một  nhóm  nghiên  cứu  tại  Khoa  Khoa  học  Máy  tính  và  Kỹ  thuật  của  Đại  học  Minnesota,  chuyên  về  hệ  thống  khuyến nghị, cộng đồng trực tuyến, công nghệ di động, thư viện kỹ thuật số, và các hệ  thống  thông  tin  địa  lý  địa  phương.  Các  thành  viên  của  dự  án  nghiên  cứu  GroupLens  được tham gia vào nhiều dự án nghiên cứu liên quan đến các lĩnh vực lọc thông tin, lọc  cộng  tác,  và  hệ  thống  khuyến  nghị.  Dự  án  được  dẫn  dắt  bởi  giáo  sư  John  Riedl  và  Joseph Konstan. Dự án bắt đầu để khám phá lọc cộng tác tự động vào năm 1992, nhưng  nổi  tiếng  nhất  trên  toàn  thế  giới  cho  thử nghiệm là  một  hệ  thống  lọc cộng  tác  tự động  cho Usenet News năm 1996. Kể từ đó dự án đã mở rộng phạm vi nghiên cứu tổng thể  các giải pháp lọc thông tin, tích hợp trong phương pháp dựa trên nội dung cũng như cải  tiến công nghệ lọc cộng tác hiện tại. 

Movielens  là  một  hệ  thống  khuyến  phổ  biến,  là  một  website  gợi  ý  phim  cho  người dùng xem, dựa trên sở thích phim của họ và sử dụng phương pháp lọc cộng tác,  được nhóm GroupLens tạo ra vào năm 1997. 

Bộ dữ liệu tôi sử dụng của Movielens chứa các dữ liệu đánh giá rõ ràng cho các  phim, có đặc điểm sau:  

 

 Với  100000  đánh  giá  được  thực  hiện  bởi  1000 người  dùng  trên  1700 bộ  phim.  Các phim nhận giá trị đánh giá trong khoảng từ 1 đến 5.  

 Mỗi người sử dụng đã đánh giá ít nhất là 20 phim. 

 Thông tin cá nhân đơn giản cho người sử dụng (tuổi, giới tính, nghề nghiệp, zip  code_mã bưu chính) 

 Các  dữ  liệu  được  thu  thập  thông  qua  các  trang  web  MovieLens  (Movielens.umn.edu) trong khoảng thời gian bảy tháng từ ngày 19 tháng 9 năm  1997  và  được  thông  qua  ngày  22  tháng  04  năm  1998.  Trong  bộ  dữ  liệu  này,  người sử dụng có ít hơn 20 xếp hạng hoặc không có thông tin cá nhân hoàn chỉnh  sẽ bị loại bỏ khỏi bộ dữ liệu. 

3.1.2. Thông tin chi tiết về định dạng của bộ dữ liệu của Movielens[15]

ml-data.tar.gz   - tập tin nén tar. Để xây dựng lại các tập tin dữ liệu u:            gunzip ml-data.tar.gz  

          tar xvf ml-data.tar             mku.sh  

u.data   -  Bộ  u  dữ  liệu  đầy  đủ,  100000  xếp  hạng  của  943  người  dùng  trên  1682  mặt  hàng  Mỗi  người  dùng  có  đánh  giá  ít  nhất  là  20  phim.  Người  sử  dụng  và  các  mặt  hàng  được  đánh  số  liên  tục  từ  1  và  dữ  liệu  được  sắp  xếp  ngẫu  nhiên.  Cấu  trúc  của  1  nhãn riêng biệt:    user id | item id | rating | timestamp  Các dấu thời gian là unix giây kể từ 01/01/1970 theo giờ UTC  u.info  - Số người users, items, and rating trong các u tập dữ liệu  u.item   - Thông tin về các items (movies, một nhãn có dạng:         movie id | movie title | release date | video release date |        IMDb URL | unknown | Action | Adventure | Animation |        Children's | Comedy | Crime | Documentary | Drama | Fantasy | 

        Film-Noir | Horror | Musical | Mystery | Romance | Sci-Fi |        Thriller | War | Western |    movie id là được sử dụng trong tập dữ liệu u.data.   u.genre  - Một danh sách các thể loại phim  u.user  - thông tin cá nhân của user; một nhãn có dạng:  user id | age | gender | occupation | zip code    user id là những người sử dụng trong tập dữ liệu u.data.  u.occupation - Danh sách các ngành nghề.  

u1.base 943 users, 1650 items, 80.000 ratings  - Bộ dữ liệu u.data được tách thành  các bộ ui.base và ui.test (với i=1..5)  để  làm  các  bộ  dữ  liệu  huấn  luyện  và  kiểm  tra  bởi  mku.sh.  Mỗi  u1,  ...,u5 có bộ kiểm tra riêng biệt.  u1.test 459 users, 1410 items, 20.000 ratings  u2.base 943 users, 1648 items, 80.000 ratings  u2.test 653 users, 1420 items, 80.000 ratings  u3.base 943 users, 1650 items, 80.000 ratings  u3.test 869 users, 1423 items, 80.000 ratings  u4.base 943 users, 1660 items, 80.000 ratings  u4.test 923 users, 1394 items, 80.000 ratings  u5.base 943 users, 1650 items, 80.000 ratings  u5.test 927 users, 1407 items, 80.000 ratings 

Bảng 3.1: Định dạng các bộ dữ liệu huấn luyện và kiểm tra của Movielens mku.sh   - Một kịch bản để tạo ra tất cả các dữ liệu từ bộ .data 

 

Một phần của tài liệu (LUẬN văn THẠC sĩ) nghiên cứu hệ thống khuyến nghị người dùng dựa vào lọc công tác 04 (Trang 48 - 51)

Tải bản đầy đủ (PDF)

(57 trang)